Les fournisseurs de données web agrègent des données provenant de nombreuses sources telles que des pages web, des blogs, des forums, etc., et fournissent ces données à travers plusieurs industries. Les données sont facilement disponibles pour être consommées par les clients via l'utilisation d'API qui peuvent être accessibles moyennant des frais modiques. Les types de données peuvent inclure des flux d'actualités, des blogs, des forums et des données à la demande disponibles publiquement.
Les fournisseurs de données web consomment des données de milliards de pages à travers le web et ont la capacité inhérente de transformer ces données non structurées en données structurées dans différents formats selon les besoins de l'utilisateur.
Les fournisseurs de données web aident à indexer le web et peuvent également créer un référentiel ou une base de données prête à l'emploi. Cette base de données se compose à la fois de données en direct et historiques, ce qui la rend extrêmement utile pour l'analyse et l'intelligence d'affaires. Enfin, certains fournisseurs de données web prennent en charge des API telles que les API de recherche pour retourner des résultats qui incluent des actualités, des ensembles de données sociales, des forums, des blogs, des données gouvernementales, etc.
Les fournisseurs de données web sont différents des logiciels d'extraction de données et des services d'extraction de données car les fournisseurs de données web fournissent des données prêtes à l'emploi basées sur un référentiel et restructurent, filtrent et formatent également les données pour une utilisation immédiate par un client au lieu de l'extraction de données web ad hoc selon les demandes des clients. De plus, dans plusieurs cas, les fournisseurs de scraping web ou les outils d'extraction de données utilisent généralement des fournisseurs de données web pour obtenir des données et les fournir à leurs clients.
Pour être inclus dans la catégorie des fournisseurs de données web, un produit doit :
Fournir des données en temps réel à partir de milliards de pages web pour garantir une faible latence
Fournir un référentiel de données consultable pour les utilisateurs de données
Transformer des données non structurées en données structurées accessibles dans divers formats tels que JSON, XML, etc.